BTCC / BTCC Square / kripto para /
OpenAI Araştırması Sohbet Robotu Değerlendirme Yöntemlerindeki Kusurları Ortaya Çıkarıyor

OpenAI Araştırması Sohbet Robotu Değerlendirme Yöntemlerindeki Kusurları Ortaya Çıkarıyor

Published:
2025-09-08 16:57:56
20
1
BTCCSquare haberleri:

OpenAI ve Georgia Tech araştırmacıları, yapay zeka sohbet robotlarının değerlendirilme şeklindeki sistematik kusurları tespit etti ve mevcut test yöntemlerinin yanlış yanıtları istemeden teşvik ettiğini ortaya koydu. Çalışma, ChatGPT ve DeepSeek-V3 gibi modellerin, cehalet itiraflarını cezalandıran ikili puanlama sistemleri nedeniyle dürüst belirsizlik yerine kendinden emin tahminlere öncelik verdiğini gösteriyor.

Halüsinasyonlar öngörülebilir matematiksel kalıplar izliyor ve nadiren görülen eğitim verileri tutarlı hatalara neden oluyor. Kontrollü testlerde, en iyi modeller bile bilgi boşluklarını kabul etmek yerine tekrar tekrar yanlış biyografik detaylar sağladı. Araştırma, doğruluğu ödüllendiren, hataları cezalandıran ve şeffaf "bilmiyorum" yanıtları için tarafsızlığı koruyan revize edilmiş bir puanlama sistemi öneriyor.

İlk denemeler, bu yaklaşımı kullanan modellerin stratejik ihmal yoluyla daha yüksek genel doğruluk elde ettiğini gösteriyor. Bulgular, AI kıyaslaması hakkındaki temel varsayımlara meydan okuyarak, güvenilirliğin yalnızca model mimarisinden ziyade değerlendirme çerçevelerine daha fazla bağlı olabileceğini öne sürüyor.

|Square

BTCC uygulamasını indirip kripto yolculuğunuza başlayın

Hemen bugün başlayın 100M+ kullanıcımıza katılmak için tarayın